ในโมดูลนี้ เราจะเปลี่ยนจากแนวทางดั้งเดิมของการปรับแต่งแบบใช้น้ำหนัก (weight-based fine-tuning) สู่โลกที่มีพลวัตของ การเรียนรู้ในบริบท (ICL)เราสำรวจว่าโมเดลภาษาขนาดใหญ่ (LLMs) สามารถทำให้สำเร็จงานได้ โดยไม่ต้องเปลี่ยนโครงสร้างภายใน แต่อาศัยโครงสร้างของคำสั่ง (prompt) เพื่อเดินทางผ่านพื้นที่ลึกลับที่ซับซ้อน
1. จากการบอกให้ ไปสู่การแสดงให้เห็น
ขณะที่คำชี้แจงให้ทิศทางทั่วไป แต่การเลียนแบบผ่านคู่ข้อมูล (x, y) จะทำหน้าที่เป็นแนวทางที่ไม่ใช้พารามิเตอร์ ตัวอย่างเหล่านี้กลายเป็นจุดยึดทางสถิติ ที่ทำให้การแจกแจงความน่าจะเป็นของโมเดลแคบลง ลดความคลุมเครือที่มีอยู่ในคำชี้แจงภาษาธรรมชาติที่ยังไม่ถูกปรับปรุง
2. กลไกของความสนใจ (Attention)
ICL อาศัยกลไกความสนใจของโมเดล Transformer เพื่อทำการ "การนำเข้างาน (task induction)" โดยการระบุรูปแบบที่เป็นระบบในลำดับที่คุณให้มา โมเดลจะหาตำแหน่งเฉพาะของการแปลงเชิงฟังก์ชันในพื้นที่มิติสูง ทำให้มันสามารถเลียนแบบสไตล์และโครงสร้างได้อย่างแม่นยำ
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.